Open-vocabulary segmentation 調査メモ

要点

Open-vocabulary segmentation は、学習時に固定されたラベル集合を超えて、自由なテキスト語彙で画像中の領域を切り分けて認識する流れとして発展してきた研究領域です (OVS Survey)。

2022年ごろの初期フェーズでは、CLIP や ALIGN のような vision-language model の語彙能力を、セグメンテーションへどう移すかが中心課題で、OpenSeg は「まず領域をまとめること」が重要だと整理し、画像キャプション由来の supervision でも open-vocabulary segmentation をスケールさせられることを示しました ( OpenSeg)。

2023年には OVSeg、OpenSeeD、FC-CLIP のように、proposal-based な設計を洗練したり、検出と統合したり、2段構成を1段化して効率を改善する流れが強くなりました (OVSeg, OpenSeeD, FC-CLIP)。

2024年以降は、CLIP 単体の弱点である局在化の弱さを、SAM・DINO・その他の vision foundation model の空間的一貫性で補う方向、training-free で性能を押し上げる方向、segment embedding を独立に学習する方向、評価指標そのものを見直す方向へ広がっています (ProxyCLIP, PnP-OVSS, USE, SCAN)。

2025年には、そもそも既存ベンチマークが「本当に open-vocabulary か」を問い直す議論や、クラス名入力すら不要にする vocabulary-free segmentation の提案も出ており、研究の焦点が「CLIP をどう使うか」から「どんな未知性を本当に測るべきか」へ少し移りつつあります (OpenBench / OVSNet, Vocabulary-Free Segmentation)。

知っておくべき概念

open-vocabulary semantic segmentation は、与えたテキストカテゴリに従って各ピクセルへ意味ラベルを割り当てる設定で、訓練クラス外のカテゴリにも対応したいという問題です (OVSeg, ZegCLIP)。

近い言葉として zero-shot semantic segmentation がありますが、こちらは「seen / unseen」の分割を明示した評価設定として語られることが多く、open-vocabulary segmentation はより広く「自由なテキスト語彙による推論」を含む枠組みとして扱われます (ZegCLIP, OVS Survey)。

実務的には次の3つを区別すると理解しやすいです。

semantic segmentation: 各ピクセルにカテゴリを付ける設定で、主指標は mIoU が中心です (OVSeg CVPR PDF)。
instance segmentation: 個々の物体インスタンスごとに mask を出す設定で、AP が使われます (FC-CLIP, OpenSeeD)。
panoptic segmentation: thing / stuff を統合して評価する設定で、PQ が主に使われます (FC-CLIP, OpenSeeD)。

何を目的にやっているか

open-vocabulary segmentation の目的は、固定ラベル集合に依存しない scene understanding を実現することです (OVS Survey)。

研究上の目的は大きく次の4つに分けて考えると整理しやすいです。

未知カテゴリへの汎化: seen classes に合わせすぎず unseen concepts を拾うことです (ZegCLIP, SCAN)。
空間精度の改善: CLIP の coarse な対応を、mask boundary や local coherence を保つ dense prediction へ変えることです (ProxyCLIP, FC-CLIP)。
学習コストと性能の両立: 追加アノテーションや大規模 fine-tuning をどこまで減らせるかです (PnP-OVSS, OVSeg)。
人が使いやすい open-world interface: 手でクラス集合を列挙しなくても、自然言語や自動タグで segmentation できるようにすることです (Vocabulary-Free Segmentation, USE)。

応用面では、ロボティクス、自動運転、リモートセンシング、医用、3D scene understanding など、ラベル空間が閉じていない領域で特に意味があります (OVS Survey, AerOSeg, 3D-OVS)。

よく使われる指標とベンチマーク

指標

semantic segmentation では mIoU が基本です (OVSeg CVPR PDF)。

instance segmentation では AP、panoptic segmentation では PQ がよく使われ、FC-CLIP のような論文では mIoU / AP / PQ を並べて報告しています (FC-CLIP)。

SCAN は open-vocabulary setting では semantic duplication を考慮すべきだとして SG-IoU を提案しており、今後の評価議論では知っておく価値があります (SCAN, SCAN PDF summary)。

定番ベンチマーク

OVSeg の整理が分かりやすく、代表的な semantic segmentation 評価セットは次の5つです (OVSeg project, OVSeg CVPR PDF)。

略称	意味	用途
A-150	ADE20K-150	比較的標準的な open-vocabulary semantic segmentation 評価 (OVSeg CVPR PDF)
A-847	ADE20K-847	より多カテゴリで細かい評価 (OVSeg CVPR PDF)
PC-59	PASCAL-Context-59	59カテゴリの評価 (OVSeg CVPR PDF)
PC-459	PASCAL-Context-459	より多カテゴリの評価 (OVSeg CVPR PDF)
PAS-20	PASCAL VOC 20 classes	古典的だが比較にはまだ使われる (OVSeg CVPR PDF)

ただし OpenBench の議論では、これら既存セットは COCO ベースの訓練空間と意味的に近いクラスが多く、真の未知性やセマンティック距離を十分に反映しないと批判されています (OpenBench / OVSNet)。

読むべき論文

OpenSeg, 2022

caption supervision で open-vocabulary segmentation をスケールさせる初期の重要論文で、「region grouping が必要」という考え方の起点として読む価値があります (OpenSeg)。

ZegCLIP, 2023

CLIP を pixel-level zero-shot segmentation へ1段構成で寄せると何が起きるかを見るのに向いています (ZegCLIP)。

OVSeg, 2023

proposal-based 系の代表で、masked region 向け CLIP adaptation という発想が今でも参照されます (OVSeg, OVSeg GitHub)。

OpenSeeD, 2023

segmentation 単体ではなく detection と一緒に open-world perception を作る流れを理解するのに良いです (OpenSeeD)。

FC-CLIP, 2023

2段法から1段法への効率改善と、frozen CLIP backbone をそのまま dense task に使う流れを押さえられます (FC-CLIP)。

SCAN, 2024

手法だけでなく評価の歪みを含めて考え始める論文として重要です (SCAN)。

CAT-Seg, 2024

cost volume / cost aggregation という整理を通じて、pixel-text matching をどう集約するかの代表例です (CAT-Seg)。

PnP-OVSS, 2024

training-free の強さを理解するための必読です (PnP-OVSS)。

ProxyCLIP, 2024

CLIP と vision foundation model の役割分担が最も分かりやすい論文の1つです (ProxyCLIP)。

USE, 2024

segment embedding を中核に据えた設計で、今後の retrieval 的な発展を考える上で有用です (USE)。

Talk2DINO, 2024

self-supervised visual model と language model の橋渡しという最近の方向を具体的に見られます (Talk2DINO)。

From Open-Vocabulary to Vocabulary-Free Semantic Segmentation, 2025

「クラス名を誰が出すのか」という次の課題を見せてくれます (Vocabulary-Free Segmentation)。

全体像の俯瞰用

OVD/OVS Survey はタスク分類、方法分類、課題整理の入口として便利です (OVS Survey)。
継続的に論文を追うなら curated list も有用です (Awesome OVS list)。

研究テーマ例

1. semantic と localization の分業をどう最適化するか

CLIP 系の semantic prior と、SAM / DINO 系の local coherence をどう結合すると最も効くかは、まだかなり大きいテーマです (ProxyCLIP, Talk2DINO)。

具体的には、attention 融合、feature correspondence、mask proposal reranking、segment embedding の共有空間化などが考えられます (ProxyCLIP, USE)。

2. fine-tuning すると何を失うのか

OpenBench の議論は、既存データセットでは fine-tuned CLIP が強く見えても、本当に訓練空間から離れた概念では frozen CLIP の方が有利な場合があることを示唆しています (OpenBench / OVSNet)。

そのため、「どの層を、どの程度、どの損失で適応させると open-vocabulary 性を壊すのか」を定量化するテーマは良いです (FC-CLIP, OpenBench / OVSNet)。

3. evaluation protocol の再設計

semantic duplication、background / other の扱い、query category の数、training vocabulary との意味距離などを明示した評価設計は、まだ発展余地があります (SCAN, OpenBench / OVSNet)。

これは新手法提案がなくても、かなり価値のある研究テーマです (SCAN, OpenBench / OVSNet)。

4. vocabulary-free / auto-query generation

ユーザがクラス名を指定しなくても、有望カテゴリ候補を生成して segmentation までつなげる方向です (Vocabulary-Free Segmentation)。

LLM / VLM を使って class proposal を出し、その後に segmentation を回す構成は、実際の利用体験に近いので研究としても応用としても面白いです (Vocabulary-Free Segmentation)。

5. open granularity / part segmentation

object レベルではなく part レベルへ行くと、語彙の曖昧さと粒度差が一気に難しくなります (OV-PARTS)。

part segmentation は今後伸びやすい領域で、segment embedding 系や retrieval 系と特に相性が良いはずです (USE, OV-PARTS)。

6. ドメイン適応

remote sensing、medical、3D scene では open-vocabulary segmentation の意義が大きい一方、自然画像との差が大きいので、domain gap が強く効きます (AerOSeg, 3D-OVS, OpenDAS)。

「自然画像で学んだ language grounding を、どれだけ annotation-light に別ドメインへ移せるか」は有望です (OpenDAS, AerOSeg)。

何から始めると良いか

研究を始める順番

1週目は OpenSeg、ZegCLIP、OVSeg、FC-CLIP を読んで、proposal-based / one-stage / CLIP adaptation の差分を1ページにまとめるのが良いです (OpenSeg, ZegCLIP, OVSeg, FC-CLIP)。
次に PnP-OVSS、ProxyCLIP、USE を読んで、training-free、VFM 融合、segment embedding という2024年の主要3方向を比較すると全体像がかなり見えます (PnP-OVSS, ProxyCLIP, USE)。
そのあと SCAN と OpenBench の議論を読むと、「どの評価で勝つべきか」を早い段階で意識できます (SCAN, OpenBench / OVSNet)。

実装を始めるなら

最初の再現対象は OVSeg か FC-CLIP が無難で、どちらも代表性が高く、コードも公開されています (OVSeg GitHub, FC-CLIP)。

training-free の強い下限を先に持ちたいなら PnP-OVSS や ProxyCLIP 系の再現を入れると、後で学習型手法を提案するときの比較基準として効きます (PnP-OVSS, ProxyCLIP)。

最初のミニ研究案

研究案A: frozen CLIP と fine-tuned CLIP を、既存ベンチマークと OpenBench 的な離れた語彙空間の両方で比較する (OpenBench / OVSNet)。
研究案B: SAM / DINO / MAE など、どの visual foundation model の spatial prior が最も効くかを proxy attention 系で比較する (ProxyCLIP)。
研究案C: class-name prompt ではなく description prompt や LLM-generated prompt を使い、semantic duplication の多いベンチマークで安定性を見る (SCAN, Vocabulary-Free Segmentation)。
研究案D: object ではなく part segmentation へ同じ設計を持ち込んで、granularity gap を調べる (OV-PARTS)。

知っておくべき注意点

既存ベンチマークの成績だけを見て「本当に open-vocabulary に強い」と言い切るのは危険です (OpenBench / OVSNet)。

特に ADE-847 や PC-459 はカテゴリ数が多く一見難しそうでも、semantic duplication の影響が強く、評価の読み方に注意が必要です (SCAN, OpenBench / OVSNet)。

また、training-free 系がかなり強いので、学習型の新手法は「なぜ学習が必要か」を明確にしないと説得力が出にくいです (PnP-OVSS, ProxyCLIP)。

Open-Vocabulary Segmentation 調査メモ